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Экспертная система поддержки перевода 


В данной статье приводятся результаты экспериментальной реализации морфологического процессора в 
составе экспертной системы поддержки перевода, представляющей собой экспериментальную 
двуязычную систему МП с английского языка на азербайджанский. Дается программное описание 
автоматического словаря как основного элемента ЭСПТ и взаимодействие автоматического словаря 
с базой знаний системы. Представлена методика составления продукционных правил базы знаний, 
основанная на сочетаемости слов друг с другом в процессе образования их грамматических форм. 


Экспертные системы в обработке 
лингвистических знаний 


Современные представления о морфологии в теоретическом языкознании, опираю- 
щиеся на теорию интерпретации, на типологию, на огромный фактический материал 
конкретных языков, создают фундамент для построения систем морфологических знаний. 
Такие системы не только накапливают информацию о языке в некотором внутреннем 
формате, но и используют ее для распознавания и синтеза текстов (в режиме верифи- 
кации). Усовершенствование редакторов текста для конкретного языка тогда можно 
рассматривать как результат такой оптимизации этих систем, когда из всего богатства 
универсальных средств отбираются только процедуры и параметры, существенные для 
конкретного языка. Как известно для сбора, хранения и обработки информации больших 
объектов данных наиболее распространенной технологией являются базы данных (БД), 
однако последние не позволяют структурировать хранящиеся в них данные на основе 
тех отношений, которые существуют между фактами непосредственно в реальной среде. 
Причем эти отношения должны отражать существенные связи объекта, т.е. позво- 
ляет лингвисту на основе своих обновленных сведений давать анализ произвольному 
выражению объектного языка и синтезировать — при необходимости — словоформы 
конкретной лексемы, коль скоро задан требуемый набор грамматических категорий. 

ЭС, являясь крупным достижением современной вычислительной техники и мето- 
дов искусственного интеллекта, представляет собой специализированную компьютерную 
систему, способную к накоплению и обобщению опыта высококвалифицированных 
экспертов, и моделирует рассуждения последних в некоторой определенной области, 
используя для этого базу знаний (БЗ), содержащую факты и правила из этой области 
и некоторую процедуру логического вывода. В последние годы разработка эксперт- 
ных систем, содержащих различные знания о языке, нашла широкое распространение. 
Так, например, можно отметить экспертную систему машинного перевода, основан- 
ную на базе морфологических и синтаксических знаний, разработанную на основе 
двухуровневой модели [1], позволяющую без дополнительного программирования 
создавать описания морфологической структуры естественного языка и списки про- 
цедур. Последняя дает возможность использовать морфологические процедуры в при- 
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кладных программах на языках Си, Пролог и др. Далее представляет интерес ЭС 
морфологических знаний, позволяющая провести морфологическую интерпретацию 
текста (истолкование словоформ), на основе постоянно обновляющихся знаний. 

Экспериментальная реализация морфологического процессора выполнена в 
Институте Информационных технологий при НАНА в виде двухуровневой модели 
английского и азербайджанского языков. Реализация для некоторых других языков 
потребует введения в исходную модель дополнительных возможностей. Для данной 
пары языков на данном этапе в рамках экспертной системы поддержки перевода (ЭСПП) 
довершены описания отдельных подсистем морфологического строя, такие, как сис- 
темы главных частей речи в сочетании с предлогами, частицами, вспомогательными 
элементами. 


Структура ЭСПП 


ЭСПП реализована на базе программы Веры 7, применяемой для создания сис- 
тем управления базами данных и знаний. Данная экспертная система работает в двух 
режимах: перевода фразы (словосочетаний на основе морфосинтаксического анализа 
и пословного перевода, базирующегося только на морфологическом анализе). Второй 
режим используется как аварийное средство, когда нельзя построить синтаксическую 
структуру и выполнить перевод в полном режиме. Объем словаря в реализованной 
версии составляет 2000 входов на каждый язык в словаре комбинированного типа. 

Для реализации морфосинтаксического анализа написан комплекс программ, 
включающий морфосинтаксический анализатор, позволяющий описывать грамматичес- 
кую информацию. Создан перечень морфосинтаксических и семантических признаков 
для пересекающихся классификаций языка; информация о признаках включена в 
словарные статьи комбинированного словаря английского/азербайджанского языков. 

ЭСПП является системой поддержки обучения и перевода на основе базы знаний. 
База знаний создана для конкретной предметной области, с включением в словарь слов 
нейтральной лексики. Система включает в свой состав различные объекты и связы- 
вающие их правила. Первоначальное создание словаря на основе нейтральной лексики 
необходимо для проверки работы морфонематических, морфологических и синтаксичес- 
ких правил. При определенных параметрах, таких, как вполне определенная техническая 
тематика, поверхностный словарь и поверхностно структурная грамматика, использование 
анализатора может повысить эффективное обучение перевода, одновременно пред- 
ставляющие возможность обучения выбранным рабочим языкам. 

ЭСПП работает в настоящее время в экспериментальном режиме, и в связи с 
этим ее можно охарактеризовать как экспериментальную двуязычную систему МП, 
которая использует полную морфологию и поверхностный синтаксис рабочих языков. 

Процесс перевода с одного языка на другой сводится к преодолению расхож- 
дений между языками. В ЭСПП межязыковые расхождения частично снимаются на 
каждом из этапов анализа, и в основном на этапе трансфера. Трудность преодоления 
расхождений обусловлена тем, что между значимыми элементами английского и азер- 
байджанского языков трудно найти взаимное соответствие. Одни и те же близкие 
значения могут кодироваться различными средствами — морфологическими, лексичес- 
кими и синтаксическими. 

Например, расхождение в переводе идиоматических выражений, которыми за- 
полнен лексикон английского языка «У\Теп ш Ачзела» — будучи в Австрии, или же 
«Фе уеаег регийИпо» — если погода позволит. 
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ЭСПП представляет собой языковую модель переводных соответствий, работающую 
на основе трансформационной грамматики с элементами грамматики непосредственно 
составляющих и конечных автоматов. Хотя, как было указано выше, лингвистическое 
обеспечение ЭСПП логически отделено от алгоритмов, рассматривать его удобно в 
алгоритмическом порядке, то есть в порядке включения его отдельных компонентов 
в процессе перевода. 


АС как база данных и один из основных 
компонентов ЭСШТ 


Автоматический словарь в составе экспертной системы представляет собой 
хранилище информации, используемое для обработки текста на основе знаний, пред- 
ставленных в виде трансформационных правил распознавания и порождения грам- 
матических, фонетических и семантических явлений языка. 

Автоматический бинарный словарь разрабатывается как часть интегрирован- 
ной системы перевода и используется для выполнения следующих задач: 

— служит основным инструментом поиска (установления) лексических переводных 
эквивалентов в ЭСППТ; 

— для работы в диалоговом режиме словарь интегрирован в общую лексикографи- 
ческую базу ЭСПП и является основной информативно-справочной базой; 

— в ЭСПП, как в одной из систем автоматической обработки текста, АС служит источни- 
ком грамматической информации, необходимой для работы алгоритмов автоматического 
морфологического и синтаксического анализов, а также для работы алгоритмов лем- 
матизации и правил базы знаний. Последние обеспечивают работу словаря при выпол- 
нении любой из названных функций в любой парадигматической формой слова. 

В табл. | приводится краткое программное описание АС в ЭСПП по следую- 
щим критериям: 


Таблица 1 — Программное описание АС в ЭСПП 


Критерий Описание 

Тип словаря Автоматический двуязычный словарь в экспертной сис- 
теме машинного перевода 

Рабочая среда РерН 7 За4ю, Войапа 

Установка программы Программа установки словаря предоставляет режим 


установки на локальный диск 

Языки, входящие в состав | В состав системы входит англо-азербайджанский словарь 
системы 
Возможности поиска пере- | Предусматриваются следующие возможности поиска 
водов переводов: морфологический (для любой формы слова 
и запросы, в соответствии с имеющимися лексико-грам- 
матическими данными ) 

Возможность работы с не- | В состав системы входит единый словарь, из которого 


которыми тематиками на экран выдаются оптимальные переводы 
Ввод новых словарных ста- | Новые словарные статьи вводятся либо вручную, либо 
тей из текстового файла в режиме импорта 


Метод поиска в словаре Морфологический и синтаксический анализ текста ори- 
гинала, использование переводного словаря и словаря 
исключений 
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Наличие словарной статьи 


Информация в словаре структурирована в виде сло- 
варных статей, каждая из которых содержит оригинал, 
перевод, грамматическую информацию 


Разграничение однонаправ- 
ленных словарных статей 


Словарная статья может быть доступна при переводе с 
английского на азербайджанский язык 


Использование 
лингвистической схемы при 
обработке запроса 


Производится для всех статей в словаре как для пере- 
водного, так и для словаря исключений 


Работа с фразами (морфо- 
логическая обработка и пе- 
ревод) 


Производится морфосинтаксическая обработка фраз 


Выделение различных пере- 
водов на экране 


Переводы разделяются в меню по частям речи, зна- 
чениям и по фразам 


Результаты работы про- 
граммы 


На выходе может быть получен построчный перевод 
текста запроса 


Наличие дополнительных 
полей 


В любую статью можно ввести комментарии и при- 
меры 


Удобное и быстрое попол- 
нение словаря 


Добавление новой словарной статьи может проис- 
ходить автоматически и обеспечивает последующую 
доступность статьи во всех режимах поиска 


Количество пополняемых 
морфологических классов 
для английского языка 


Система позволяет осуществлять ввод словоформ по 
65 различным типам склонений и спряжений англий- 
ского языка, включая некоторые виды исключений 


Количество пополняемых 
морфологических классов 
для азербайджанского языка 


Система содержит 70 классов азербайджанского языка, 
включая классы с чередованием, выпадением гласных и т.д. 


Возможность добавления 
словаря исключений 


Существует возможность включения списков исключе- 
ний (например, неправильных глаголов) 


Автоматическое указание 
названия части речи в ме- 
ню переводов 


Название части речи выводится после морфологичес- 
кого анализа 


Возможность пропуска не- 
переводимого слова из текс- 
та запроса 


При формировании построчного перевода неизвестные 
системе слова пропускаются 


Максимальное число обра- 
батываемых слов во фразе 


Фразы из 2-значимых слов 


Общее количество словар- 
ных ВХОДОВ 


Общее количество статей по всем тематикам более 2000 


Количество статей общей 
лексики 


1500 словарных статей 


Объем словаря на жестком 
диске 


170 Кб 


Предпосылки для дальней- 
шего усовершенствования 
словаря 


Формирование построчного перевода текста запроса, 
возможность просмотра всех фраз в словаре, содержащих 
данное слово, увеличения объема словаря, применение 
дополнительных тематик 
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База знаний ЭСПИ 


База знаний содержит информацию, необходимую для решения задач требуемого 
типа, в виде правил и фактов. Механизм вывода представляет собой общий алгоритм 
решения задач, реализуемый, как правило, в виде интерпретатора. Применение его к 
базе знаний о конкретной предметной области, задаваемой экспертом, и к данным о 
текущей ситуации, задаваемой пользователем, дает решение требуемой задачи. 
Интерфейс с пользователем предназначен для взаимодействия с ним во время реше- 
ния задачи, и в зависимости от типа задачи, может использовать средства анализа 
фраз на естественном языке, выбора меню, графического ввода и вывода. 

При создании ЭСПП необходимо учитывать следующие аспекты хранения и 
переработки знаний: 

— содержание знаний; 

— репрезентация знаний, форма хранения, предназначенная для эффективного поиска, 
переупорядочения и модифицирования; 

— формализация объектного знания (в нашем случае — формализация знаний о языке- 
объекте); 

— переработка текстов как последовательности слов; 

— интерпретация синтаксических структур и перевод их в лексическое представ- 
ление при учете контекста; 

— представление знаний внутри самой системы; 

— разработка вспомогательных средств для формализации, хранения и поиска знаний 
при обработке показаний экспертов. 

База знаний осуществляет работу механизма ЭСПП на основе трансформационной 
(порождающей) грамматики, представляющей собой систему правил, эксперимен- 
тальным образом приписывающую предложениям структурные описания. 

Любая трансформационная грамматика имеет в своем составе морфосинтак- 
сический, морфонологический и семантический компонент. Морфосинтаксический 
компонент определяет бесконечное множество абстрактных формальных объектов, 
каждый из которых включает в себя всю информацию, существенную для одной 
интерпретации конкретного предложения. 

Морфонологический компонент определяет фонетическую форму предложения, 
порождаемого синтаксическими правилами. Он соотносит структуру, порождаемую 
синтаксическим компонентом, с фонетически репрезентированным сигналом. Семан- 
тический компонент определяет семантическую интерпретацию предложения. Он соот- 
носит структуру, порождаемую морфосинтаксическим компонентом, с определенной 
семантической репрезентацией. 

Следовательно, морфосинтаксический компонент грамматики должен указывать 
для каждого предложения глубинную структуру, обусловливающую его семантичес- 
кую интерпретацию и поверхностную структуру, которая определяет его фонетическую 
интерпретацию. 

Основополагающей идеей трансформационной грамматики является идея о 
том, что поверхностная структура задается неоднократным применением определенных 
формальных операций, называемых «грамматическими трансформациями», к объектам 
элементарного вида. База морфосинтаксического компонента — система правил, 
порождающая конечное множество базовых цепочек, каждое из которых имеет 
связанное о ней структурное описание, называется базовым показателем структуры 
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составляющего. Эти базовые показатели являются элементарными единицами, состав- 
ляющими глубинные структуры. В основе предложения лежит последовательность 
базовых показателей, каждый из которых порождается базой синтаксического ком- 
понента. Общий смысл предложения зависит не только от смысла его слов, но и от 
синтаксической структуры предложения. Синтаксическая структура предложения — 
это совокупность сведений о связях между его словами и словосочетаниями. 


Виды правил базы знаний ЭСПП 


В качестве единиц хранения — «элементарных знаний» — выступают не только 
декларативные сведения, но и меняющиеся от эксперта к эксперту предписания — 
продукционные правила, что делать при том или ином состоянии обследуемого объекта. 
Задача лингвиста — формулировка лингвистических правил — правил языка и речи. 
Моделирование лингвистических правил как базового набора предопределяет соот- 
ветствующую архитектуру экспертной системы. 

В исследовании составление правил базы знаний основывается на методике 
сочетаемости слов друг с другом в процессе образования их грамматических форм, 
иными словами распознавание тех или иных грамматических форм слов в предложении 
и выявление их морфологической и синтаксико-семантической принадлежности 
возможно осуществить в рамках сочетаний этих словоформ друг с другом. Синтак- 
сическое разделение предложения на словосочетания с внутренними подчинительными 
связями, редко согласованием и примыканием предопределяет работу синтаксического 
блока анализа. 

Знания ЭСПП представлены набором продукционных правил, каждое из кото- 
рых состоит из: антецедента (условия) и консеквента (результата) [2]. На простом 
языке пользователя правило состоит из правой и левой части. Знания ЭСПП пред- 
ставляют собой комплекс правил унификационной грамматики, которая включает в 
свой состав элементы грамматик разных видов, таких, как: контекстно-свободная 
грамматика (КСГ), обеспечивающая морфологический анализ и синтез и являющаяся 
основой анализаторов, цепочечная грамматика (ЦГ) и грамматика непосредственно 
составляющих (ГНС), обеспечивающие синтаксический анализ и синтез. 

Так, элементы КСГ формализуют описание языковой модели как формальной 
грамматики с конечным числом состояний. Элементы ЦГ фиксируют порядок следо- 
вания объектов цепочки формально-языковой модели, то есть линейные структуры 
предложения формальной языковой модели, заданные в терминах грамматических 
классов слов. В ЭСПП применяется стратегия анализа «слева направо»: перебор слов, 
проверка условий, наличие или отсутствие изменений по условиям и добавление 
недостающих элементов формально представляют собой компьютерную реализацию 
грамматики с конечным числом состояний или КСГ, построенной на ЦГ. В базе знаний 
системы ЭСПП синтаксическая структура предложения может быть представлена: 

1) деревом синтаксического согласования или подчинения линейных узлов, т.е. 
слова в предложении находятся в несимметричных отношениях друг к другу (одни 
слова подчиняют себе другие), а формальное подчинение состоит в том, что одно 
слово определяет грамматическую форму другого; 

2) деревом синтаксического подчинения или просто деревом подчинения, задан- 
ным на множестве словоформ предложения. 
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Экспертная система поддержки перевода 2К 


С учетом морфосинтаксических и семантических признаков английского и азер- 
байджанского языков правила в базе знаний представлены следующими видами 
сочетаемости: 

— существительное в им.п. + существительное в притяжательном падеже (категория 
принадлежности); 

— предлог + артикль + существительное; 

предлог + существительное (падежные эквиваленты в азербайджанском языке); 

— существительное + ю Ве (категория сказуемости существительных); 

— существительное - ед.ч/мн.ч + глагол (временные формы глагола страдательного и 
действительного залога). 

Собственно-синтаксические правила разделяются на именную, предложную и 
глагольную группы. В формальном описании правила можно разделить на: 

— правила распознавания; 
— правила порождения; 
— правила подстановки. 

Разработанная экспертная система поддержки перевода (ЭСПП) обладает сле- 
дующими особенностями: 

1) ориентирована на конкретную область экспертизы, в данном случае на пере- 
вод текстов с английского языка на азербайджанский язык; 

2) способна делать выводы из посылок: четко сформулированные условия пра- 
вил предопределяют качества, присущие конечным автоматам; 

3) способна пополняться по ходу и в результате работы, охватывая все более 
широкие наборы знаний; 

4) основана на наборе правил, в том числе - на практических правилах, форму- 
лируемых экспертом-человеком; 

5) обладает практической ценностью. 
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